Thử nghiệm A/B
Thử nghiệm A/B là một phương pháp nghiên cứu trải nghiệm người dùng.[1] Thử nghiệm A/B bao gồm một thử nghiệm ngẫu nhiên với hai biến thể, A và B.[2][3] Nó bao gồm việc áp dụng thử nghiệm giả thuyết thống kê hoặc "thử nghiệm giả thuyết hai mẫu" như được sử dụng trong lĩnh vực thống kê. Thử nghiệm A/B là một cách để so sánh hai phiên bản của một biến, thường bằng cách kiểm tra phản ứng của đối tượng đối với biến thể A so với biến thể B, và xác định xem biến thể nào có hiệu quả hơn.[4]
Tổng quan
[sửa | sửa mã nguồn]Thử nghiệm A/B là cách viết tắt của một thử nghiệm có kiểm soát đơn giản.[1] Như tên của nó, hai phiên bản (A và B) của một biến được so sánh, chúng giống hệt nhau ngoại trừ một biến thể có thể ảnh hưởng đến hành vi của người dùng. Thử nghiệm A/B được xem là hình thức đơn giản nhất của thử nghiệm có kiểm soát. Tuy nhiên, bằng cách thêm nhiều biến thể hơn vào thử nghiệm, nó sẽ trở nên phức tạp hơn.[5]
Thử nghiệm A/B hữu ích để hiểu mức độ tương tác của người dùng và mức độ hài lòng của các tính năng trực tuyến, chẳng hạn như một tính năng hoặc sản phẩm mới.[6] Các trang web truyền thông xã hội lớn như LinkedIn, Facebook và Instagram sử dụng thử nghiệm A/B để khiến trải nghiệm người dùng thành công hơn và cũng như là một cách để cải thiện dịch vụ của họ.
Ngày nay, các thử nghiệm A/B đang được sử dụng để chạy các thử nghiệm phức tạp hơn, chẳng hạn như hiệu ứng mạng khi người dùng ngoại tuyến, cách dịch vụ trực tuyến ảnh hưởng đến hành động của người dùng và cách người dùng ảnh hưởng đến nhau.[6] Nhiều công việc sử dụng dữ liệu từ thử nghiệm A/B. Trong đó bao gồm kỹ sư dữ liệu, nhà tiếp thị, nhà thiết kế, kỹ sư phần mềm và doanh nhân.[7] Nhiều vị trí dựa vào dữ liệu từ các thử nghiệm A/B, vì chúng cho phép các công ty hiểu được sự tăng trưởng, tăng doanh thu và tối ưu hóa sự hài lòng của khách hàng.
Phiên bản A có thể là phiên bản (điều chỉnh) đang được sử dụng, trong khi phiên bản B được sửa đổi tại một vài phương diện (trị liệu). Ví dụ: trên một trang web thương mại điện tử, phễu mua hàng thường là một ứng cử viên tốt cho thử nghiệm A/B, vì ngay cả khi tỷ lệ rớt hàng giảm nhẹ cũng có thể thể hiện doanh thu tăng đáng kể. Những cải tiến đáng kể đôi khi có thể được nhìn thấy thông qua các yếu tố thử nghiệm như sao chép văn bản, bố cục, hình ảnh và màu sắc,[8] nhưng không phải lúc nào cũng vậy. Trong các thử nghiệm này, người dùng chỉ thấy một trong hai phiên bản, vì mục đích là để phát hiện phiên bản nào thích hợp hơn.[9]
Thử nghiệm đa biến hoặc thử nghiệm đa thức tương tự như thử nghiệm A/B, nhưng có thể thử nghiệm nhiều hơn hai phiên bản cùng một lúc hoặc sử dụng nhiều điều chỉnh hơn. Các thử nghiệm A/B đơn giản không hợp lệ cho các tình huống quan sát, bán thực nghiệm hoặc phi thực nghiệm khác, như thường thấy với dữ liệu khảo sát, dữ liệu ngoại tuyến và các hiện tượng phức tạp hơn khác.
Thử nghiệm A/B đã được một số người tiếp thị như là một sự thay đổi trong triết lý và chiến lược kinh doanh trong một số lĩnh vực nhất định, mặc dù cách tiếp cận giống hệt với thiết kế giữa các đối tượng, thường được sử dụng trong nhiều truyền thống nghiên cứu.[10][11][12] Thử nghiệm A/B như một triết lý phát triển web đưa lĩnh vực này cùng hàng với một sự chuyển đổi rộng hơn theo hướng thực hành dựa trên bằng chứng. Lợi ích của thử nghiệm A/B được xem là nó có thể được thực hiện liên tục trên hầu hết mọi thứ, đặc biệt là vì hầu hết các phần mềm tự động hóa tiếp thị hiện nay thường đi kèm với khả năng chạy thử nghiệm A/B liên tục.
Thống kê phép thử phổ biến
[sửa | sửa mã nguồn]"Phép thử giả thuyết hai mẫu" thích hợp để so sánh hai mẫu, trong đó các mẫu được chia cho hai trường hợp điều chỉnh trong thử nghiệm. Phép thử Z thích hợp để so sánh các phương tiện trong các điều kiện nghiêm ngặt về tính chuẩn và độ lệch chuẩn đã biết. Phép thử t của Student thích hợp để so sánh các phương tiện trong điều kiện thoải mái khi giả định ít hơn. Phép thử t của Welch giả định ít nhất và do đó là phép thử được sử dụng phổ biến nhất trong kiểm định giả thuyết hai mẫu, trong đó giá trị trung bình của một số liệu được tối ưu hóa. Trong khi giá trị trung bình của biến được tối ưu hóa là lựa chọn phổ biến nhất của ước lượng, thì những cái khác thường được sử dụng.
Để so sánh hai phân phối nhị thức chẳng hạn như tỷ lệ nhấp, người ta sẽ sử dụng phép thử chính xác của Fisher.
Phân phối giả định | Trường hợp ví dụ | Phép thử tiêu chuẩn | Phép thử thay thế |
---|---|---|---|
Gaussian | Doanh thu trung bình trên mỗi người dùng | Phép thử t của Welch (Phép thử t độc lập) | Phép thử t của Student |
Nhị thức | Tỷ lệ nhấp | Phép thử chính xác của Fisher | Phép thử của Barnard |
Poisson | Giao dịch trên mỗi người dùng trả tiền | Phép thử E[13] | Phép thử C |
Đa thức | Số lượng mỗi sản phẩm đã mua | Kiểm định chi bình phương | |
Không xác định | Phép thử Mann – Whitney U | Lấy mẫu Gibbs |
Lịch sử
[sửa | sửa mã nguồn]Giống như hầu hết các lĩnh vực khác, việc xác định ngày ra đời của một phương pháp mới là rất khó. Thử nghiệm với các chiến dịch quảng cáo, hay được so sánh với thử nghiệm A/B hiện đại, đã bắt đầu vào đầu thế kỷ XX.[14] Nhà tiên phong quảng cáo Claude Hopkins đã sử dụng phiếu giảm giá khuyến mại để thử nghiệm tính hiệu quả của các chiến dịch của mình. Tuy nhiên, quá trình này, mà Hopkins đã mô tả trong Scientific Advertising của mình, thì không kết hợp các khái niệm như ý nghĩa thống kê và giả thuyết không, cái hay được sử dụng trong kiểm định giả thuyết thống kê.[15] Các phương pháp thống kê hiện đại để đánh giá mức độ quan trọng của dữ liệu mẫu đã được phát triển riêng rẽ trong cùng thời kỳ. Công việc này được thực hiện năm 1908 bởi William Sealy Gosset khi ông thay đổi phép thử Z để tạo ra phép thử của Student.[16][17]
Với sự phát triển của Internet, đã có những cách mới để lấy mẫu quần thể. Các kỹ sư của Google đã chạy thử nghiệm A/B đầu tiên của họ vào năm 2000 với nỗ lực xác định số lượng kết quả tối ưu để hiển thị trên trang kết quả của công cụ tìm kiếm.[4] Thử nghiệm đầu tiên không thành công do trục trặc dẫn đến thời gian tải chậm. Nghiên cứu thử nghiệm A/B sau này sẽ nâng cao hơn, nhưng nền tảng và các nguyên tắc cơ bản nói chung vẫn giữ nguyên, và vào năm 2011, 11 năm sau thử nghiệm đầu tiên của Google, Google đã chạy hơn 7.000 thử nghiệm A/B khác nhau.
Năm 2012, một nhân viên của Microsoft làm việc trên công cụ tìm kiếm Bing đã tạo ra một thử nghiệm để kiểm tra các cách hiển thị tiêu đề quảng cáo khác nhau. Trong vòng vài giờ, định dạng thay thế đã tạo ra doanh thu tăng 12% mà không ảnh hưởng đến chỉ số trải nghiệm người dùng.[3] Ngày nay, các công ty như Microsoft và Google đều tiến hành hơn 10.000 thử nghiệm A/B mỗi năm.
Nhiều công ty hiện sử dụng phương pháp tiếp cận "thử nghiệm được thiết kế" để đưa ra quyết định tiếp thị, với kỳ vọng rằng kết quả mẫu có liên quan có thể cải thiện kết quả chuyển đổi tích cực.[18] Đó là một thực tế ngày càng phổ biến khi các công cụ và chuyên môn phát triển trong lĩnh vực này.[cần dẫn nguồn]
Ví dụ
[sửa | sửa mã nguồn]Một công ty có cơ sở dữ liệu khách hàng gồm 2.000 người quyết định tạo chiến dịch email có mã giảm giá để tạo doanh số bán hàng thông qua trang web của mình. Họ tạo ra hai phiên bản email với lời kêu gọi hành động khác nhau (phần sẽ khuyến khích khách hàng làm điều gì đó - trong trường hợp chiến dịch bán hàng thì là mua hàng) và xác định mã khuyến mại.
- Đối với 1.000 người, họ gửi email với lời kêu gọi hành động rằng "Ưu đãi sẽ kết thúc vào thứ Bảy tuần này! Sử dụng mã A1",
- và cho 1.000 người khác, họ gửi email với lời kêu gọi hành động rằng "Ưu đãi sắp kết thúc! Sử dụng mã B1".
Tất cả các yếu tố khác và bố cục của email đều giống hệt nhau. Sau đó, công ty sẽ theo dõi chiến dịch nào có tỷ lệ thành công cao hơn bằng cách phân tích việc sử dụng các mã khuyến mại. Email sử dụng mã A1 có tỷ lệ phản hồi 5% (50 trong số 1.000 người được gửi email đã sử dụng mã để mua sản phẩm), và email sử dụng mã B1 có tỷ lệ phản hồi 3% (30 người nhận đã sử dụng mã để mua một sản phẩm). Do đó công ty xác định rằng trong trường hợp này, lời kêu gọi hành động đầu tiên hiệu quả hơn và sẽ sử dụng nó trong các đợt bán hàng trong tương lai. Một cách tiếp cận sắc thái hơn sẽ liên quan đến việc áp dụng kiểm định thống kê để xác định xem sự khác biệt về tỷ lệ phản hồi giữa A1 và B1 có ý nghĩa thống kê hay không (nghĩa là, rất có thể sự khác biệt là thật, có thể lặp lại, và không phải do cơ hội ngẫu nhiên).[19]
Trong ví dụ trên, mục đích của thử nghiệm là xác định đâu là cách hiệu quả hơn để khuyến khích khách hàng mua hàng. Tuy nhiên, nếu mục đích của thử nghiệm là xem email nào sẽ tạo ra tỷ lệ nhấp cao hơn, tức là số người thực sự nhấp vào trang web sau khi nhận được email, thì kết quả có thể sẽ khác.
Ví dụ: mặc dù nhiều khách hàng nhận được mã B1 đã truy cập vào trang web, vì lời kêu gọi hành động không nêu rõ ngày kết thúc của chương trình khuyến mại, nhiều người trong số họ có thể không cần phải mua hàng ngay lập tức. Do đó, nếu mục đích của thử nghiệm chỉ đơn giản là xem email nào sẽ mang lại nhiều lưu lượng truy cập hơn cho trang web, thì email chứa mã B1 có thể đã thành công hơn. Thử nghiệm A/B nên có kết quả xác định có thể đo lường được chẳng hạn như số lần bán hàng đã được thực hiện, chuyển đổi tỷ lệ nhấp hoặc số người đăng ký.[20]
Thử nghiệm A/B chính trị
[sửa | sửa mã nguồn]Thử nghiệm A/B được nhiều tập đoàn sử dụng cho hơn, nhưng cũng đang thúc đẩy các chiến dịch chính trị. Năm 2007, chiến dịch tranh cử tổng thống của Barack Obama đã sử dụng thử nghiệm A/B như một cách để thu hút sự chú ý trực tuyến và hiểu những gì cử tri muốn thấy từ ứng cử viên tổng thống.[7] Ví dụ: nhóm của Obama đã thử nghiệm bốn nút riêng biệt trên trang web của họ để khiến người dùng đăng ký nhận bản tin. Ngoài ra, nhóm đã sử dụng sáu hình ảnh đi kèm khác nhau để thu hút người dùng. Thông qua thử nghiệm A/B, nhân viên có thể xác định cách thu hút cử tri một cách hiệu quả và thu hút thêm sự quan tâm.
Phân khúc và nhắm mục tiêu
[sửa | sửa mã nguồn]Thử nghiệm A/B thường áp dụng cùng một biến thể (ví dụ: phần tử giao diện người dùng) với xác suất như nhau cho tất cả người dùng. Tuy nhiên, trong một số trường hợp, phản hồi đối với các biến thể có thể không đồng nhất. Có nghĩa là, trong khi biến thể A có thể có tỷ lệ phản hồi tổng thể cao hơn, thì biến thể B có thể có tỷ lệ phản hồi thậm chí cao hơn trong một phân khúc cơ sở khách hàng cụ thể.[21]
Chẳng hạn, trong ví dụ trên, phân tích tỷ lệ phản hồi theo giới tính có thể là:
Giới tính | Tổng | Nam giới | Nữ giới |
---|---|---|---|
Tổng số gửi | 2.000 | 1.000 | 1.000 |
Tổng số phản hồi | 80 | 35 | 45 |
Biến thể A | 50/1,000 (5%) | 10/500 (2%) | 40/500 (8%) |
Biến thể B | 30/1,000 (3%) | 25/500 (5%) | 5/500 (1%) |
Trong trường hợp này, chúng ta có thể thấy rằng trong khi biến thể A có tỷ lệ phản hồi tổng thể cao hơn, thì biến thể B thực sự có tỷ lệ phản hồi cao hơn với nam giới.
Do đó, công ty có thể chọn một chiến lược phân khúc là kết quả của thử nghiệm A/B, gửi biến thể B cho nam giới và biến thể A cho nữ giới trong tương lai. Trong ví dụ này, chiến lược được phân khúc sẽ làm tăng tỷ lệ phản hồi dự kiến từ đến - tăng 30%.
Điều quan trọng cần lưu ý là nếu mong đợi kết quả được phân khúc từ thử nghiệm A/B thì ngay từ đầu, thử nghiệm phải được thiết kế phù hợp để phân bổ đồng đều trên các thuộc tính khách hàng chính, chẳng hạn như giới tính. Tức là, thử nghiệm phải có cả (a) chứa một mẫu đại diện là nam và nữ và (b) chỉ định nam và nữ một cách ngẫu nhiên cho mỗi "biến thể" (biến thể A so với biến thể B). Nếu không làm như vậy có thể dẫn đến sai lệch thử nghiệm và kết luận không chính xác được rút ra từ thử nghiệm.[22]
Cách tiếp cận phân khúc và nhắm mục tiêu này có thể được tổng quát hóa hơn nữa để bao gồm nhiều thuộc tính khách hàng thay vì một thuộc tính khách hàng duy nhất, ví dụ: tuổi và giới tính của khách hàng, để xác định các mẫu sắc thái hơn có thể tồn tại trong kết quả thử nghiệm.
Xem thêm
[sửa | sửa mã nguồn]- Điều khiển thích nghi
- Mô hình lựa chọn
- Tên cướp nhiều tay
- Thử nghiệm đa biến
- Thử nghiệm ngẫu nhiên có kiểm soát
- Kiểm soát khoa học
- Thống kê thử nghiệm
Tham khảo
[sửa | sửa mã nguồn]- ^ a b Young, Scott W. H. (2014). “Improving Library User Experience with A/B Testing: Principles and Process”. Weave: Journal of Library User Experience. 1 (1). doi:10.3998/weave.12535642.0001.101. ISSN 2333-3316.
- ^ Kohavi, Ron; Longbotham, Roger (2017). “Online Controlled Experiments and A/B Tests” (PDF). Trong Sammut, Claude; Webb, Geoff (biên tập). Encyclopedia of Machine Learning and Data Mining. Springer.
- ^ a b Kohavi, Ron; Thomke, Stefan (tháng 9 năm 2017). “The Surprising Power of Online Experiments”. Harvard Business Review: 74–82.
- ^ a b “The ABCs of A/B Testing - Pardot”. Pardot (bằng tiếng Anh). Truy cập ngày 21 tháng 2 năm 2016.
- ^ Kohavi, Ron (2010). “Online Controlled Experiments and A/B Testing”. Chú thích journal cần
|journal=
(trợ giúp) - ^ a b “From Infrastructure to Culture | Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining” (bằng tiếng Anh). doi:10.1145/2783258.2788602. Chú thích journal cần
|journal=
(trợ giúp) - ^ a b Siroker, Dan; Koomen, Pete (ngày 7 tháng 8 năm 2013). A / B Testing: The Most Powerful Way to Turn Clicks Into Customers (bằng tiếng Anh). John Wiley & Sons. ISBN 978-1-118-65920-5.
- ^ “Split Testing Guide for Online Stores”. webics.com.au. ngày 27 tháng 8 năm 2012. Truy cập ngày 28 tháng 8 năm 2012.
- ^ Kaufman, Emilie (2014). “On the Complexity of A/B Testing” (PDF). 35. arXiv:1405.3224. Bibcode:2014arXiv1405.3224K – qua JMLR: Workshop and Conference Proceedings. Chú thích journal cần
|journal=
(trợ giúp) - ^ Christian, Brian (27 tháng 2 năm 2000). “The A/B Test: Inside the Technology That's Changing the Rules of Business | Wired Business”. Wired.com. Truy cập ngày 18 tháng 3 năm 2014.
- ^ Christian, Brian. “Test Everything: Notes on the A/B Revolution | Wired Enterprise”. Wired.com. Truy cập ngày 18 tháng 3 năm 2014.
- ^ Cory Doctorow (26 tháng 4 năm 2012). “A/B testing: the secret engine of creation and refinement for the 21st century”. Boing Boing. Truy cập ngày 18 tháng 3 năm 2014.
- ^ Krishnamoorthy, K.; Thomson, Jessica (2004). “A more powerful test for comparing two Poisson means”. Journal of Statistical Planning and Inference. 119: 23–35. doi:10.1016/S0378-3758(02)00408-1.
- ^ "What is A/B Testing." Convertize. Truy cập 2020-01-28.
- ^ "Claude Hopkins Turned Advertising Into A Science." Retrieved 2019-11-01.
- ^ “Brief history and background for the one sample t-test”.
- ^ Box, Joan Fisher (1987). “Guinness, Gosset, Fisher, and Small Samples”. Statistical Science. 2 (1): 45–52. doi:10.1214/ss/1177013437.
- ^ “The Complete Guide To Conversion Rate Optimization”. Omniconvert. Truy cập ngày 5 tháng 1 năm 2017.
- ^ Amazon.com. “The Math Behind A/B Testing”. Bản gốc lưu trữ ngày 21 tháng 9 năm 2015. Truy cập ngày 12 tháng 4 năm 2015.
- ^ Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (2009). “Controlled experiments on the web: survey and practical guide” (PDF). Data Mining and Knowledge Discovery. Berlin: Springer. 18 (1): 140–181. doi:10.1007/s10618-008-0114-1. ISSN 1384-5810.
- ^ “Advanced A/B Testing Tactics That You Should Know | Testing & Usability”. Online-behavior.com. Bản gốc lưu trữ ngày 19 tháng 3 năm 2014. Truy cập ngày 18 tháng 3 năm 2014.
- ^ “Eight Ways You've Misconfigured Your A/B Test”. Dr. Jason Davis. 12 tháng 9 năm 2013. Bản gốc lưu trữ ngày 18 tháng 3 năm 2014. Truy cập ngày 18 tháng 3 năm 2014.